代表性相似性分析是一种来自认知神经科学的方法,有助于比较来自两个不同数据源的表示。在本文中,我们建议使用代表性分析来探测代码语言模型中的语义基础。我们通过使用IBM Codenet数据集中的数据来探究Codebert模型的语义接地。通过我们的实验,我们表明当前的训练方法不会在代码的语言模型中诱导语义基础,而是专注于优化基于形式的模式。我们还表明,即使在语义相关任务上进行了一些微调,也会大大增加Codebert的语义基础。我们对Codebert模型的输入方式的消融表明,在单峰输入(仅代码)上使用双峰输入(代码和自然语言)(仅代码)可以在语义微调过程中提供更好的语义接地和样本效率。最后,我们在代码中使用语义扰动的实验表明,Codebert能够牢固地区分语义正确和不正确的代码。
translated by 谷歌翻译